正當我想起來要重構程式碼的時候,我發現已經沒有時間了,所以今天讓我們休息一下。
那今天就來公開一下這次鐵人賽的爬蟲!
我去年也有寫過一個爬蟲,但是那個爬蟲是用 JavaScript 寫的,而且不見了,所以我今年就用 TypeScript 重寫了一個。
順帶一提,今年 ithelp 好像有加了一項防護「必須在 Header 中包含 User Agent」。
Repository: https://github.com/JacobLinCool/ithome-ironman-2022
Data: https://github.com/JacobLinCool/ithome-ironman-2022/tree/data
資料的部分我是設定 GitHub Actions 在每天臺灣時間 20:00:00 執行爬蟲,並且把資料推到 data
分支上。但眾所皆知 GitHub Actions 的排程延遲相當嚴重,可能長達半小時,所以每個週期並不是剛好 24 小時。
也許可以用 GitHub Pages 來做一個簡單的網站,視覺化一下資料,但是我沒有時間做了,所以就先這樣吧。如果你想要分析看看的話,可以用每天抓的完整資料來做分析,我很期待看到有人做出有趣的東西!
這也算一種「公開資料」吧? @skyhong2002 ?
明年應該要報名個自我挑戰組,專門播報前一天的排行榜以及有趣的文章。
那我們明天見囉!
以 2022/09/27 20:00 ~ 2022/09/28 20:00 文章觀看數增加值排名
誤差: 1 小時
+1519
[Day 1] 工具從來不是問題,知識才是力量 ! Scrum 該懂的二三事 !
+452
學徒、忍者、大師? 忍蛋三人組的火影之路 (Day 0)
+358
Day 1 - 前言與內容大綱
+346
Day01主題:參賽原因
+342
Introduction of Vue, Django, MongoDB, Nginx
+338
使用反射來實作一個 AutoMapper
+305
「全端挑戰」熱門產品排行製作、了解react-router-dom、props與 ? :
的搭配
+286
「全端挑戰」node.js Api介紹與實作、async function 與try{} catch介紹
+276
「全端挑戰」 express用法 建立Api schema CRUD 的練習與熟悉 part1
+245
「全端挑戰」學習Mern全端開發概念與動態網站開發流程懶人包
今天排行榜第一名的觀看次數有點高。
當然是!你把整個 Repo 包含 dat 都以 MIT 授權釋出,那就是達成開放資料的最低標準~
但剛剛有稍微查了一下,雖然我沒有細讀其中的差別,但如果要針對開放資料下授權的話,使用 Creative Commons 的授權方式會比較好ㄛ
感覺 Content 類的通常都用 CC,我想應該是因為程式的話 Source 跟最終產品之間具有差異,而 Content 就直接是最終產品?